Graph representation of objects and their relations in a scene, known as a scene graph, provides a precise and discernible interface to manipulate a scene by modifying the nodes or the edges in the graph. Although existing works have shown promising results in modifying the placement and pose of objects, scene manipulation often leads to losing some visual characteristics like the appearance or identity of objects. In this work, we propose DisPositioNet, a model that learns a disentangled representation for each object for the task of image manipulation using scene graphs in a self-supervised manner. Our framework enables the disentanglement of the variational latent embeddings as well as the feature representation in the graph. In addition to producing more realistic images due to the decomposition of features like pose and identity, our method takes advantage of the probabilistic sampling in the intermediate features to generate more diverse images in object replacement or addition tasks. The results of our experiments show that disentangling the feature representations in the latent manifold of the model outperforms the previous works qualitatively and quantitatively on two public benchmarks. Project Page: https://scenegenie.github.io/DispositioNet/
translated by 谷歌翻译
最近已提出了为无监督的医学图像模型发现的成功深度学习技术。用于涂料的口罩通常独立于数据集,并且不适合在给定的解剖学类别中执行。在这项工作中,我们介绍了一种生成形状感知的面具的方法,旨在先验学习统计形状。我们假设,尽管掩模的变化改善了介入模型的普遍性,但面具的形状应遵循感兴趣的器官的拓扑结构。因此,我们提出了一种基于现成的镶嵌模型和超像素过度分段算法的无监督的指导掩蔽方法,以生成各种依赖形状依赖性掩码。腹部MR图像重建的实验结果表明,使用不规则形状掩模的方形或数据集,我们提出的掩蔽方法优于标准方法。
translated by 谷歌翻译
联邦学习(FL)是一种分布式学习方法,它为医学机构提供了在全球模型中合作的前景,同时保留患者的隐私。尽管大多数医疗中心执行类似的医学成像任务,但它们的差异(例如专业,患者数量和设备)导致了独特的数据分布。数据异质性对FL和本地模型的个性化构成了挑战。在这项工作中,我们研究了FL生产中间半全球模型的一种自适应分层聚类方法,因此具有相似数据分布的客户有机会形成更专业的模型。我们的方法形成了几个群集,这些集群由具有最相似数据分布的客户端组成;然后,每个集群继续分开训练。在集群中,我们使用元学习来改善参与者模型的个性化。我们通过评估我们在HAM10K数据集上的建议方法和极端异质数据分布的HAM10K数据集上的我们提出的方法,将聚类方法与经典的FedAvg和集中式培训进行比较。我们的实验表明,与标准的FL方法相比,分类精度相比,异质分布的性能显着提高。此外,我们表明,如果在群集中应用,则模型会更快地收敛,并且仅使用一小部分数据,却优于集中式培训。
translated by 谷歌翻译
视网膜光学相干断层扫描(OCT)图像的自动分割已成为医疗应用机器学习的最新方向。我们假设层的解剖结构及其在OCT图像中的高频变化使视网膜OCT成为提取光谱域特征并将其与空间域特征相结合的合适选择。在这项工作中,我们提出了$ \ upsilon $ -NET,这是一种结合频域特征与图像域的体系结构,以改善OCT图像的分割性能。这项工作的结果表明,引入两个分支,一个用于光谱,一个用于空间域特征,带来了流体分割性能的显着改善,并且与知名的U-NET模型相比,允许表现优于性能。我们的进步是流体分割骰子得分的13%,平均骰子得分为1.9%。最后,删除光谱域中选定的频率范围证明了这些特征对流体分割优于表现的影响。
translated by 谷歌翻译
Large "instruction-tuned" language models (finetuned to respond to instructions) have demonstrated a remarkable ability to generalize zero-shot to new tasks. Nevertheless, they depend heavily on human-written instruction data that is limited in quantity, diversity, and creativity, therefore hindering the generality of the tuned model. We introduce Self-Instruct, a framework for improving the instruction-following capabilities of pretrained language models by bootstrapping off its own generations. Our pipeline generates instruction, input, and output samples from a language model, then prunes them before using them to finetune the original model. Applying our method to vanilla GPT3, we demonstrate a 33% absolute improvement over the original model on Super-NaturalInstructions, on par with the performance of InstructGPT_001, which is trained with private user data and human annotations. For further evaluation, we curate a set of expert-written instructions for novel tasks, and show through human evaluation that tuning GPT3 with Self-Instruct outperforms using existing public instruction datasets by a large margin, leaving only a 5% absolute gap behind InstructGPT_001. Self-Instruct provides an almost annotation-free method for aligning pre-trained language models with instructions, and we release our large synthetic dataset to facilitate future studies on instruction tuning.
translated by 谷歌翻译
鉴于大量具有相似属性但域不同的标记数据的可用性,域的适应性是一种有吸引力的方法。在图像分类任务中,获得足够的标签数据具有挑战性。我们提出了一种名为Selda的新方法,用于通过扩展三种域适应方法来堆叠合奏学习,以有效解决现实世界中的问题。主要假设是,当将基本域适应模型组合起来时,我们可以通过利用每个基本模型的能力来获得更准确,更健壮的模型。我们扩展最大平均差异(MMD),低级别编码和相关比对(珊瑚),以计算三个基本模型中的适应损失。同样,我们利用一个两双连接的层网络作为元模型来堆叠这三个表现良好的域适应模型的输出预测,以获得眼科图像分类任务的高精度。使用与年龄相关的眼病研究(AREDS)基准眼科数据集的实验结果证明了该模型的有效性。
translated by 谷歌翻译
神经风格转移是一种强大的计算机视觉技术,可以将一个图像的艺术“样式”纳入另一个图像的“内容”。该方法背后的基本理论取决于以下假设:图像的样式由其特征的革兰氏矩阵表示,该矩阵通常是从预先训练的卷积神经网络(例如VGG-19)中提取的。这个想法并不能直接扩展到时间序列风格化,因为二维图像的样式概念与一维时间序列的样式概念不类似。在这项工作中,提出了一种新颖的时间序列样式转移的表述,以实现合成数据的生成和增强。我们介绍了时间序列的程式化功能的概念,该功能与时间序列现实主义属性直接相关,并提出了一种新型的风格化算法,称为STYLETIME,该算法使用明确的功能提取技术来结合一个时间序列的基础内容(趋势)带有另一个样式(分销属性)。此外,我们讨论了评估指标,并将我们的工作与现有的最新时间序列生成和增强方案进行比较。为了验证我们的方法的有效性,我们使用风格化的合成数据作为数据增强的手段,以提高几个预测任务上经常性神经网络模型的性能。
translated by 谷歌翻译
隐式神经表示(INRS)最近已成为一种强大的工具,可提供准确和分辨率的数据编码。它们作为一般近似器的稳健性已在各种数据源中显示,并在图像,声音和3D场景表示方面进行了应用。但是,很少有人注意利用这些体系结构来代表和分析时间序列数据。在本文中,我们使用INRS分析了时间序列的表示,从重建精度和训练收敛速度进行比较不同的激活函数。我们展示了如何利用这些网络的时间序列的插补,并在单变量和多变量数据上进行了应用。最后,我们提出了一个超网络架构,该体系结构利用INR来学习整个时间序列数据集的压缩潜在表示。我们引入了基于FFT的损失来指导培训,以便在时间序列中保留所有频率。我们证明该网络可用于将时间序列编码为INR,并且可以将它们的嵌入方式内插以从现有时间序列中生成新的时间序列。我们通过将其用于数据增强来评估我们的生成方法,并表明它与当前的最新方法相对于时间序列的最新方法具有竞争力。
translated by 谷歌翻译
Masader(Alyafeai等,2021)创建了一种元数据结构,用于分类阿拉伯NLP数据集。但是,开发一种简单的方法来探索这种目录是一项艰巨的任务。为了为探索目录的用户和研究人员提供最佳体验,必须解决一些设计和用户体验的挑战。此外,用户与网站的交互可能提供了一种简单的方法来改善目录。在本文中,我们介绍了Masader Plus,该网络接口供用户浏览masader。我们演示了数据探索,过滤和简单的API,该API允许用户从后端检查数据集。可以使用此链接https://arbml.github.io/masader探索masader plus。可以在此处找到的视频录制说明界面的录制https://www.youtube.com/watch?v=setDlseqchk。
translated by 谷歌翻译
学习表达性分子表示对于促进分子特性的准确预测至关重要。尽管图形神经网络(GNNS)在分子表示学习中取得了显着进步,但它们通常面临诸如邻居探索,不足,过度光滑和过度阵列之类的局限性。同样,由于参数数量大,GNN通常具有较高的计算复杂性。通常,当面对相对大尺寸的图形或使用更深的GNN模型体系结构时,这种限制会出现或增加。克服这些问题的一个想法是将分子图简化为小型,丰富且有益的信息,这更有效,更具挑战性的培训GNN。为此,我们提出了一个新颖的分子图粗化框架,名为FUNQG利用函数组,作为分子的有影响力的构件来确定其性质,基于称为商图的图理论概念。通过实验,我们表明所产生的信息图比分子图小得多,因此是训练GNN的良好候选者。我们将FUNQG应用于流行的分子属性预测基准,然后比较所获得的数据集上的GNN体系结构的性能与原始数据集上的几个最先进的基线。通过实验,除了其参数数量和低计算复杂性的急剧减少之外,该方法除了其急剧减少之外,在各种数据集上的表现显着优于先前的基准。因此,FUNQG可以用作解决分子表示学习问题的简单,成本效益且可靠的方法。
translated by 谷歌翻译